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摘 要 ”选择 题 中 的 作答 选项 能 提供 额外 诊断 信息 , 为 充分 利用 选项 信息 , 研究 提出 认 知 诊 
断 计算 机 自 适 应 测验 (CD-CAT) 中 两 种 处 理 选 择 题 选项 信息 的 非 参数 选 题 策略 和 变 长 终止 
规则 。 模 执 研究 的 结果 发 现 : (1) 定 长 条 件 下 两 种 非 参数 选 题 策略 的 分 类 准确 性 整体 要 高 

参数 选 题 策略 ; (2) 两 种 非 参数 选 题 策略 较 参 数 选 题 策略 具有 更 加 均衡 的 题库 使 用 情况 ; (3) 
非 参 数 选 题 策略 在 两 种 新 的 变 长 终止 规则 下 具有 更 高 的 分 类 准确 率 ; (4) 两 种 非 参数 选 题 策 
略 均 适 用 于 选择 题 CD-CAT 情境 ， 使 用 者 可 任 选 其 一 进行 测验 分 析 。 

关键 词 ” 认 知 诊断 计算 机 自 适 应 测验 ,题目 选项 信息 ， 非 参数 选 题 策略 ， 变 长 终止 规则 


认 知 诊断 评估 (cognitive diagnostic assessment, CDA) 是 对 个 体 的 知识 、 技 能 以 及 认 知 
加 工 过 程 进 行 诊断 分 类 的 一 种 方法 。 其 可 以 提供 个 体 在 各 知识 内 容 上 的 具体 掌握 情况 , 故 可 
知晓 个 体 学 习 过 程 中 的 优势 与 不 足 ( 辛 涛 等 , 2015)， 这 一 方面 有 利于 解释 个 体 在 某 些 测 验 
上 表现 欠 佳 的 原因 ， 同 时 还 有 利于 教师 进行 后 续 的 补救 教学 (e.g., Gao etal., 2021)， 因 此 受 
到 众多 研究 者 的 重视 。CDA 中 对 个 体 进行 分 类 的 方法 主要 有 参数 方法 和 非 参 数 方法 〈 郭 舌 ， 


周文 杰 , 2021 )， 参 数 方法 主要 使 用 认 知 诊断 模型 (cognitive diagnostic model, CDM) 估计 题 


目 参 数 和 个 体 属性 掌握 情况 , 其 中 , 一 般 性 CDM 有 广义 DINA 模型 (generalized deterministic 


inputs, noisy “and” gate, GDINA; de la Torre, 2011) 等 ， 简 化 模型 则 有 DINA 模型 等 。 非 参数 


方法 主要 有 聚 类 分 析 法 〈 郭 大 等 ,2018; 康 春 花 等 ,2015; Chiu etal.,2009)、 距 离 判 别 法 ( 康 


春花 等 ,2019; 罗 照 盛 等 ,2015; Chiu et al., 2018) 以 及 机 器 学 习 法 〈 汪 文 义 等 , 2016; Liu & 
Cheng, 2018). 


当前 CDA 的 一 个 重要 研究 领域 是 认 知 诊断 计算 机 化 自 适应 测验 Ccognitive diagnostic 
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computerized adaptive testing, CD-CAT; Chang, 2015, Cheng, 2009 )。 相 较 于 纸 笔 测验 , CD-CAT 
能 够 以 更 少 的 题目 获得 更 加 准确 的 诊断 结果 , 并 且 其 提供 的 题目 测量 特性 与 个 体 知 识 掌握 水 
平 大 体 相当 , 因而 可 较 好 地 激发 个 体 的 作答 动机 ( 陈 平 等 ,2011; 孙 小 坚 等 ,2019; Sun etal., 
2021)， 最 终 实现 对 个 体 的 准确 测量 。CD-CAT 包含 5 个 重要 组 成 部 分 : 题库 、 测 验 模型 、 
选 题 策 略 、 知 识 状态 估计 方法 以 及 终止 规则 。 其 中 选 题 策略 受到 大 量 关 注 GER 等 ,2016); 
常见 的 选 题 策 略 有 基于 作答 分 布 和 基于 后 验 分 布 的 策略 (Zheng & Chang, 2016)， 前 者 包括 


KL 信息 (Kullback-Leibler information, Xu et al., 2003), GDI (G-DINA model discrimination 


index, Kaplan et al., 2015) 等， 后 者 包括 SHE (Shannon entropy, Xu et al., 2003) 等 。 

以 上 选 题 策略 属于 参数 策略 , 参数 选 题 策略 的 优势 在 于 可 以 准确 获得 个 体 在 各 属性 掌握 
模式 〈attribute master pattern, AMP) 上 的 掌握 概率 ， 同 时 也 可 以 获得 较 高 的 分 类 准确 性 。 而 
其 潜在 不 足 在 于 由 于 需 知 晓 题 库 中 的 题目 参数 ， 要 求 事先 进行 预测 试 ， 如 此 ， 若 样本 量 不 够 
大 ， 则 题目 参数 的 精度 难以 保障 ， 同 时 还 存在 题库 被 提前 泄漏 的 风险 。 对 此 ， 研 究 者 提出 了 
非 参数 CD-CAT 〈 何 明 霜 , 2021; 张 淑 君 , 2019; Chang et al., 2019; Chiu & Chang, 2021 ) 。 非 参 
数 CD-CAT 只 需 获 得 题库 中 各 测验 题目 所 考察 的 属性 ， 无 需 进行 预测 试 ， 因 而 降低 了 题库 
提前 泄漏 的 风险 ， 且 无 需 考 虑 题目 参数 估计 偏差 带 来 的 影响 (Chang etal., 2019)。 模 拟 研究 
的 结果 表明 ， 当 预测 试 样本 较 小 时 ， 非 参数 选 题 策略 下 的 模式 匹配 率 (pattern matched rate, 
PMR) 要 优 于 参数 选 题 策略 的 PMR (Chang et al., 2019; Chiu & Chang, 2021; Yang et al., 2020). 

终止 规则 作为 CD-CAT 的 另外 一 个 重要 成 分 ， 受 关注 程度 远 低 于 选 题 策略 ， 且 大 部 分 
CD-CAT 研究 使 用 定 长 终止 规则 ， 对 变 长 CD-CAT MRED (NA 等 , 2015)。 但 相 较 于 
定 长 CD-CAT, 变 长 CD-CAT 在 测验 效率 、 能力 估计 的 收敛 情况 和 估计 精度 等 方面 均 更 加 优 
异 ， 更 能 体现 自 适 应 测验 的 特点 和 优势 〈 郭 舌 等 , 2015)。 对 此 ，Hsu (2013) 基于 具有 
最 大 和 次 大 后 验 概 率 的 两 个 AMPs 之 间 的 比值 提出 一 种 变 长 终止 规则 ; BRAGS (2015) 提出 
了 六 种 变 长 终止 规则 ,其 进一步 将 此 六 种 规则 分 成 基于 绝对 标准 、 基 于 相对 标准 以 及 结合 绝 
对 和 相对 标准 的 混合 终止 规则 ; 上 述 终 止 规则 适用 于 参数 CD-CAT， 难 以 拓展 至 非 参数 CD- 
CAT 情境 。 张 淑 君 (2019) 则 在 非 参 数 CD-CAT 情境 下 提出 两 种 变 长 终止 规则 (D1 和 D3), 
并 通过 模拟 和 实证 研究 对 两 种 规则 的 表现 进行 了 探究 ， 结 果 表 明 D3 规则 的 PMR 要 明显 高 
T DI 规则 的 PMR. 值得 注意 的 是 , 一 方面 ,当前 关于 非 参 数 终止 规则 的 研究 依旧 非常 少 ; 
男 一 方面 ， 张 涉 君 (2019) 提出 的 D3 终止 规则 思路 在 于 每 次 估计 个 体 的 AMP 时 ， 最 小 非 
参数 距离 〈 如 汉 明 距离 ) 只 能 对 应 一 个 AMP， 但 三 次 估计 的 AMPs 之 间 可 能 各 不 相同 ， 如 
此 可 能 增加 估计 误差 。 


TER 
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当前 无 论 是 参数 还 是 非 参数 CD-CAT， 绝 大 多 数 研究 的 主流 题 型 是 选择 题 (multiple- 
choice, MC)， 且 对 个 体 的 作 管 反 应 进行 分 析 时 重点 关注 个 体 是 否 正 确 作 管 测验 题目 ， 而 较 
少 关 注 干 扰 项 信息 , 忽视 了 干扰 项 所 能 提供 的 额外 诊断 信息 ,导致 对 MC 题目 的 使 用 效率 过 


{i (GWE, 周文 杰 , 2021; 刘 拓 , 2016; de la Torre, 2009)。 对 此 ，Yigit 等 (2019) 基于 选择 题 


DINA 模型 CMC-DINA; de la Torre, 2009) 提出 了 同时 考虑 所 有 选项 的 ISD CJensen-Shannon 
divergence) 选 题 策略 ， 研 究 结果 表明 ISD 策略 下 的 PMR 较 不 考虑 干扰 项 信息 的 GDI 具有 
更 高 的 PMR。 但 JSD 选 题 策略 属于 参数 策略 ， 意 味 着 题目 参数 估计 偏差 和 题库 泄露 风险 问 
题 依然 存在 。 考 虑 到 非 参 数 诊断 方法 无 需 或 只 需 少 量 预测 试 样本 即 可 获得 较 高 的 PMR 
(Chang et al., 2019; Chiu & Chang, 2021)， 且 当前 尚未 有 研究 探讨 非 参 数 方 法 如 何在 CD- 
CAT 中 利用 干扰 项 信息 以 提升 对 个 体 的 诊断 精度 。 基于 此 ,本 研究 一 方面 提出 两 种 CD-CAT 
中 融合 干扰 项 信息 的 非 参 数 选 题 策略 , 同时 , 为 更 好 地 实现 CD-CAT 的 自 适 应 特点 , 提出 两 
种 适用 于 考虑 题目 选项 信息 的 CD-CAT ( 记 为 mcCD-CAT) 的 非 参 数 变 长 终止 规则 。 研究 将 
通过 模拟 研究 分 别 对 二 种 非 参 数 选 题 策略 和 变 长 终止 规则 的 性 能 进行 系统 探讨 , 以 进一步 丰 
富 CD-CAT 研究 。 文 章 的 结构 如 下 : 首先 介绍 可 处 理 选 项 信息 的 认 知 诊断 方法 , 其 次 阔 述 非 
参数 mcCD-CAT 及 其 变 长 终止 规则 , 之 后 通过 两 个 模拟 研究 探讨 非 参 数 mcCD-CAT 和 终止 


规则 的 性 能 ， 最 后 对 结果 进行 讨论 与 展望 。 
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2 处 理 选 项 信息 的 认 知 诊断 方法 


目前 研究 者 提出 了 参数 和 非 参数 的 认 知 诊断 方法 以 处 理 考 虑 题目 选项 信息 的 认 知 诊断 
测验 ， 下 面 对 此 二 者 进行 介绍 。 


2.1 MC-DINA 模型 


研究 者 提出 了 选择 题 CDMs 以 处 理 选项 信息 ， 如 MC-DINA 模型 、SICM 模型 (scaling 


individuals and classifying misconceptions model, Bradshaw & Templin, 2014) 和 结构 化 MC- 


DINA 模型 (Ozaki, 2015) 等 。 其 中 SICM 模型 将 个 体 的 潜在 特质 看 作 是 连续 变量 ， 而 各 干 
扰 项 则 是 关于 知识 内 容 的 错误 概念 ， 这 与 常规 的 CDA 存在 差异 ， 故 研究 不 考虑 该 模型 。 考 
虑 到 MC-DINA 模型 简单 易 懂 ， 参数 的 解释 性 也 更 加 通俗 易 懂 ， 且 具有 不 错 的 诊断 效果 ， 故 


究 将 介绍 该 模型 。MC-DINA 模型 的 作答 反应 函数 为 : 


zn 


Pila PUE, na, e P Ag gi Pg. a) 


= T 7. tq 
Sj — arg max {a qj; |a; qj m 4,4, d 
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其 


项 个 数 ， g 表示 个 体 i 在 是 
alg Ro, fq 的 内 积 ， 上 标 了 表示 转 置 ，g; es 


选项 元 素 不 全 为 0 的 选项 个 数 , 当 个 体 i 的 AMP 与 题 


P (h|g) 则 表示 


识别 ， 


H, a, RISIA iH AMP; j 表示 题目 


目 六 上 所 属 的 组 别 ， 


q jh 表示 


EP WoEY 1 


属于 组 别 g 中 的 个 体 在 题目 j 上 选择 第 有 


P(h|g)， 即 组 别 g 中 的 个 体 在 题目 


J 


, hh 表示 选项 ， hl, 


* 
Hi, 


题目 PB h 个 选项 的 g 向 上 


~ 


H,, H RF 


j 的 选 


EL 
FH 


d, AS doe jh 


Ej 的 所 有 选项 均 无 法 匹配 时 ,gj = 0. 


选项 的 概率 。 为 保证 


FE 模型 可 被 


j 上 选择 各 选项 的 概率 总 和 等 于 


lo 


不 


FIF DINA 模型 ，MC-DINA 模型 的 参数 是 选项 的 选择 概率 PP (A| g) 本身。 


相应 的 参数 估计 方法 如 EM 算法 (de la Torre, 2009)、MCMC 算法 (Ozaki, 2015) 


和 VB 算法 (Variational Bayesian; Yamaguchi, 2020) 即 可 得 到 MC-DINA 模型 的 参数 和 个 体 


的 AMP 估计 值 。 
2.2 MC 汉 明 距离 法 


郭 磊 和 周文 杰 (2021) 提出 了 基于 选项 层 


的 非 参数 诊断 分 类 方 


法 ,其 使 用 汉 明 距离 计 


算 观 测 作答 和 题目 各 选项 的 理想 作答 间 的 距离 总 和 ， 距 离 总 和 最 小 的 AMP 将 作为 个 体 的 


AMP。 在 此 基础 上 ， 他 们 提出 了 简 
距离 三 种 非 参数 方法 ， 其 中 后 两 者 是 简 
汉 明 距离 下 的 PMR 要 优 于 另外 二 者 ， 故 此 处 将 介 


单 MC 汉 明 距离 
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H fia] £ 
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Lk 
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HDDmc (X,,n, ) = ss 
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X p Np PIRRE i 在 题 上 


ijh 
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其 中 ， 


J Bh 


取 值 均 为 0 或 1， 表 示 个 体 是 否 选择 该 选项 ， 天 ; 表示 题目 所 考察 的 属性 个 数 ， 7 表示 理 


想 作 管 。 


3 考虑 题目 选项 信息 的 CD-CAT 


目前 关于 mcCD-CAT 


策略 。 研 究 首 先 对 ISD 策略 进行 介 


了 参数 JSD 


单 MC 汉 明 距离 、 加 权 MC 汉 
的 拓展 。 
单 MC 汉 明 距离 ， 其 表达 式 为 : 


Nin d 


选项 上 的 实际 作答 和 到 
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其 模拟 研究 发 现 


ZN 


(1-24) 


的 研究 比较 少 ，Yigit 等 (2019) 在 MC-DINA 模型 的 基础 上 


绍 ， 然 后 再 介 


绍 本 研究 提 


UMEN, 


出 的 两 种 适用 


罚 MC 汉 明 


， 简 单 MC 


(2) 
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mcCD-CAT 的 非 参数 策略 。 非 参数 CD-CAT 将 基于 作答 反应 与 各 AMPs 之 间 的 非 参数 距离 
(如 汉 明 距离 》 对 个 体 进行 分 类 并 且 选 择 后 续 的 测验 题目 (Chang et al, 2019; Chiu & Chang, 
2021)， 因 而 计算 作答 反应 和 所 有 AMPs 间 的 距离 是 非 参 数 CD-CAT (包括 mcCD-CAT) 的 
核心 和 基础 。 


3.1 基于 JSD 的 mcCD-CAT 


Yigit 等 (2019) 以 MC-DINA 模型 为 基础 ,提出 了 可 以 考虑 所 有 选项 信息 的 JSD 策略 ， 
JSD 策略 是 一 种 基于 作答 反应 后 验 分 布 的 选 题 策略 , 通过 相应 的 转换 , 其 与 SHE 策略 等 价 。 
JSD 策略 的 计算 公式 为 : 


JSD, = S(P, xn )-? mS(P,) 
f 


=] ZP, - h|a,)z(a 外 Daa, )5(P,) 


=-)' P(X, - h)log P(X, 2 h) - M x(a,)S(P(X, - h| aj) 


Kp PLA Hx 25 的 概率 矩阵 ， 表 示 所 有 AMPs 选择 各 个 选项 的 概率 ;了 为 万, x1 的 


向 量 ， 表 示 第 1 种 AMP 在 题目 /上 选择 各 个 选项 的 概率 ; zr 为 2* x1 的 向 量 ， 表 示 各 AMP 


的 后 验 概率 ; SRE: (x)= E[-logx]; P(X, = 六 表示 个 体 选择 题目 7 第 万 个 


选项 的 边际 概率 。 候 选 题目 集中 具有 最 大 JSD 值 的 题目 将 提供 给 个 体 作答 。 
3.2 基于 MC 汉 明 距离 的 mcCD-CAT 


ABA A CAS (2021) 提出 的 Fj, 是 对 Ozaki (2015) 文章 所 提 指 标的 修正 ,该 值 的 计生 


过 程 要 求 个 体 i 对 题目 j 所 考察 属性 的 掌握 情况 与 选项 的 缩减 g 向 量 CD (sl). KG 


Kj 


为 正确 选项 所 考察 的 属性 个 数 ) 完全 匹配 ， 其 计算 过 于 严 苛 。 例 如 ， 假 设 题 目 j 考察 三 个 属 
性 ， 其 在 四 个 选项 上 的 缩减 gq 向 量 分 别 为 {1,1,1}、{1,0,1}、 行 ,0,0} 和 {0,0,0}， 此 时 ， 基 于 部 


PEMIRSA (2021) Bm, 计算 方法 ,缩减 AMPs 分 别 为 {1,1,0} 和 {1,0,0} 的 个 体 在 该 题目 上 


的 理想 作答 向 量 分 别 为 {0,0,0,1} 和 {0,0,1,0}。 但 理论 上 ，AMP 为 {1,1,0} 的 个 体 由 于 未 掌握 第 
3 个 属性 ， 所 以 其 选择 第 1 和 2 个 选项 的 概率 较 小 ， 而 第 4 个 选项 未 考察 任何 属性 ， 故 该 个 
体 也 不 大 可 能 选择 该 选项 ， 第 3 个 选项 考察 了 第 一 个 属性 ， 而 该 个 体 也 掌握 了 第 一 个 属性 ， 


故 理想 状态 下 ， 第 3 个 选项 是 其 理想 作答 (dela Torre, 2009)。 对 此 ， 本 研究 将 对 上 述 , 的 


计算 方法 进行 完善 , 使 其 更 好 地 适应 测验 情境 。 由 于 个 体 所 属 组 别 g; RH 之 间 存在 对 应 关 


A, WH, 是 对 不 同 选项 的 gj 向 量 的 表征 ， 由 此 可 得 g, 也 是 对 gj 的 表征 ， 而 7 同样 是 


对 gj 的 表征 ， 因 此 gj 和 ?1 之 间 有 内 在 关系 。 此 时 ， 将 7 定义 为 : 


1 如 果 g, =h 
mm (3) 
"M | 其 它 


其 中 ，g, 表示 个 体 所 属 的 组 别 ， 其 值 可 由 公式 O) 计算 得 到 。 


基于 修改 的 mj 重新 考虑 上 面 的 例子 ， 先 用 公式 (1) 计算 缩减 AMPs 分 别 为 {1,1,0} 和 


{1,0,0} 的 个 体 在 题目 j 中 的 组 别 , 此 时 , 二 者 的 8y 均 为 3; 再 基于 公式 G), FIZER Ny 


均 为 {0,0,1,0}; 最 后 代入 公式 (2) 计算 其 HDDmc 值 。 

基于 MC 汉 明 距离 的 mcCD-CAT 实施 流程 为 : (1) 初始 化 测验 题库 ， 明 确 各 测验 题目 
及 选项 所 考察 的 属性 ;(2) 从 题库 中 随机 选择 一 个 测验 题目 给 个 体 作 答 ， 记 录 个 体 的 作答 反 
Ni. (3) 计算 个 体 当 前 作答 反应 向 量 和 所 有 AMPs 间 的 距离 (HDDmc); (4) 基于 HDDmc 


值 对 所 有 AMPs 进行 升序 排序 ， 并 确定 顺序 为 前 两 位 的 AMPs (分 别 记 为 名 ,和 6&,，)， 其 


对 应 的 距离 分 别 记 为 @ 和 d, + (5) 从 测验 题库 


lst 


fiie th MEK A) â, M âa BEE S, 


即 S HEL Dg Aia o EE S 为 非 空 集合 ， 则 转 至 步骤 (7)， 反 之 则 转 至 


步骤 (6); (6) HG ，Cm>3) Râ ， 并 利 选 出 候选 题目 集合 S. CS 为 空 集 时 ， 用 m 


© =m+1 更 新 m (A, FPR (6), HES 为 非 空 集合 ; D 从 题目 集 $ 中 随机 抽取 一 个 
题目 给 个 体 作答 ， 记 录 其 作答 反应 ; (8) BRR (3) 到 (7)， 直 到 满足 终止 规则 ; (9) 


将 di, 所 对 应 的 AMP 作为 个 体 最 终 的 估计 值 。 


由 以 上 流程 可 知 ，mcCD-CAT 实施 流程 和 Chang “ (2019) 提出 的 非 参数 CD-CAT 实 
施 流程 大 体 相 同 ， 不 同 之 处 在 于 Chang 等 (2019) 使 用 了 Xu 等 (2016) 提出 的 初始 题 选择 
策略 ， 而 mcCD-CAT 则 无 需 该 步 又， 其 原因 在 于 mcCD-CAT 将 题目 所 有 选项 纳入 考虑 ， 而 
各 选项 中 的 g 向 量 可 以 较 好 地 体现 Xu 5$ (20160. 中 的 初始 题 选 择 策略 ， 因 此 ， 在 测验 长 度 
较 长 的 情况 下 ，mcCD-CAT 自身 已 经 蕴含 了 Xu (2016) 的 初始 题 选择 策略 ， 故 不 需要 重 
复 进行 初始 题 的 选择 ， 预 实验 研究 和 后 面 的 模拟 研究 一 均 证 明了 这 点 。 


3.3 基于 Jaccard 距离 的 mcCD-CAT 


Jaccard 相似 度 (Jaccard similarity; Jaccard, 1912) 最 初 应 用 于 植物 学 领域 ， 用 于 测量 两 
个 不 同 区 域 A 和 B 的 植物 种 类 间 的 相似 程度 ， 后 被 广泛 应 用 于 信息 检索 、 数 据 挖掘 和 机 器 


学 习 等 领域 (Kosub, 2019); 何 明 霜 (2021) 将 其 应 用 于 多 级 计 分 的 CD-CAT， 本 研究 将 其 


拓展 至 mcCD-CAT 情境 。Jaccard 相似 度 的 计算 方法 为 《Jaccard, 1912): 


.[l4nB| — n, 


Jac — = 
|AUB ni +n AS 


其 中 ，7 和 分别 表 示 区 域 A 和 B 中 独 有 的 物种 数量 , 而 ni 则 表示 两 个 区 域 共有 的 


物种 数量 。Jac 取 值 范围 为 [0, 1]，0 和 1 分 别 表示 完全 不 一 致 和 完全 一 致 。 本 研究 将 其 用 于 
计算 观察 作答 反应 和 理想 作答 反应 之 间 的 相似 度 ， 并 基于 相似 度 值 来 对 个 体 进行 诊断 分 类 ， 
为 使 Jac 值 与 HDDmc 有 相同 形式 ， 研 究 使 用 1 —Jac 表示 相似 度 〈 也 称 Jaccard 距离 ): 


J 


JDDme(X,.4,)=1— = 
| Un AN 


(4) 


Rp, X, ={X Xs X, Ran = [anys oy AMERA i RUSSES RURHB 


WARMER X, Op) 表示 个 体 i 在 题目 i 上 的 实际 (理想) 作答 模式 ， 是 长 度 为 万 的 


ZAHR, wX, = {0,1,0,0} 表 示 个 体 选 择 了 第 2 个 选项 。J 表示 个 体 作答 的 题目 数量 ， 


区 ) 为 指示 函数 ， 表 示 括 号 内 的 表达 式 是 否 成 立 ， 成 立 为 1， 反之 为 0。 文中 IDDme 的 计算 
过 程 与 何 明 霜 (2021) 的 计算 过 程 之 间 的 主要 差异 在 于 理想 作答 模式 的 计算 ， 本 文中 的 理想 
作答 模式 的 计算 见 公式 (D. 


il 


需 注意 的 是 ， 由 于 事先 并 不 清楚 个 体 的 AMP， 故 无 法 直接 获得 yy,， 此 时 ， 将 依次 计算 


所 有 可 能 的 AMPs 在 这 些 题目 上 的 理想 反应 丸 ，7 二 1,…,2* ， 并 计算 思 和 XX, 之 间 的 JDD 


值 ， 个 体 最 终 的 AMP 具有 最 小 的 JDD 值 ， 若 最 小 JDD 值 对 应 多 个 AMPs， 则 从 中 随机 选 
择 一 个 。 

基于 JDDmc 的 mcCD-CAT 实施 流程 和 基于 HDDmc 的 mecCD-CAT 实施 流程 基本 相同 ， 
不 同 之 处 在 于 步骤 (3)， 此 时 使 用 Jaccard 距离 计算 公式 来 计算 个 体 实际 作答 反应 向 量 和 所 
有 AMPs 间 的 非 参 数 距离 。 


3.4 终止 规则 


CD-CAT 的 终止 规则 分 为 定 长 和 变 长 两 类 。 当 测验 为 定 长 时 ， 其 终止 规则 为 预先 设 定 的 
题目 长 度 ， 这 在 非 参 数 和 参数 CD-CAT 中 均 适 用 ; 当 测验 为 变 长 时 ， 张 淑 君 (2019) 在 非 参 


数 CD-CAT 中 提出 DI 和 D3 两 种 终止 规则 , 其 思路 是 每 次 估计 个 体 AMP 时 , 最 小 距离 (如 


HDDmo) 是 否 对 应 唯一 的 AMP。D1 规则 下 ， 个 体 作 答 某 题目 后 ， 当 最 小 HDDmec 只 对 应 一 
个 AMP 时 ， 结 束 测验 ，D3 规则 下 ， 每 次 估计 个 体 AMP 时 ， 要 求 具 有 最 小 HDDmc 只 对 应 
唯一 的 AMP， 且 这 种 一 一 对 应 关系 需 连 续 出 现 3 次 才能 结束 测验 。 

本 研究 基于 限制 性 MHRM 算法 (cMHRM; Liu etal,2020) 和 基于 距离 比 的 思路 提出 两 
种 适用 于 非 参数 CD-CAT 的 变 长 终止 规则 《分 别 记 为 MR 和 DR 规则 )， 以 丰富 此 方面 的 研 
Fi. Liu 等 〈2020) 使 用 cMHRM 算法 估计 CDM， 该 算法 需 计 算 前 后 两 次 欠 代 的 所 有 参数 
估计 值 间 的 差 值 65， 并 取 最 大 差 值 max(8)， 将 每 次 迭代 的 max(6) 组 成 向 量 


Tm 


M , 算法 结束 o 本 


A= {max(6"),---,max(6")} » 4 4 中 连续 四 个 max(8) 均 小 于 预 设 标准 


研究 将 借鉴 该 思想 : 当 连 续 四 次 所 估计 的 AMPs 均 相 同时 ， 测 验 终 止 ， 并 将 该 AMP 作为 个 


体 最 终 的 AMP。 第 二 种 变 长 终止 规则 是 计算 di, 和 4q,,, 之 间 的 比值 ， 该 方法 的 思想 在 因子 


分 析 中 抽取 单个 因子 时 经 常 被 使 用 。 本 研究 通过 计算 qd, dy, > CR (CR 为 预 设 值 ) 来 终 


IEW, JE d, 所 对 应 的 AMP 为 个 体 最 终 的 AMP. 


4 研究 一 : 定 长 mecCD-CAT 下 两 种 非 参 选 题 策略 的 性 能 


4.1 研究 目的 
在 固定 测验 长 度 条 件 下 , 探讨 两 种 考虑 干扰 项 信息 的 非 参数 选 题 策略 在 不 同 实验 条 件 中 
的 性 能 ， 并 将 其 与 参数 选 题 策略 CISD) 进行 比较 。 


4.2 研究 设计 


4.2.1 自 变量 


研究 的 自 变量 有 6 个 ， 分 别 为 属性 个 数 、Q 矩阵 结构 、 题 目 质量 、 属 性 分 布 形态 、 测 验 
长 度 和 选 题 策略 。 有 具体 而 言 ，(1) 属性 个 数 分 别 为 4 和 6 个 ，4 和 6 个 属性 在 以 往 研 究 中 比 
较 常 见 〈 如 孙 小 坚 等 2019, 2021; Sun et al., 2021). (2) Q 和 矩阵 的 结构 有 两 种 ， 分 别 为 简单 
结构 和 复杂 结构 〈 郭 磊 等 , 2015)， 其 中 简单 结构 下 ， 题 目的 正确 选项 考察 各 属性 的 概率 为 


20%, 且 正 确 选项 至 少 考察 一 个 属性 ; 复杂 结构 下 ,题目 正确 选项 考察 各 属性 的 概率 则 为 50%。 
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错误 选项 的 q 向 量 则 为 正确 选项 的 子 集 ， 且 选项 之 间 具 有 包含 关系 (delaTorre,2009)。(3 ) 


题目 质量 有 三 个 水 平 ， 分 别 为 高 、 低 和 混合 质量 ， 题 目 质量 将 通过 1 一 (h|g) 给 予 表征 ， 


三 种 质量 分 别 服从 以 下 均匀 分 布 (Sun etal.,2020): U(.05,.25). U(.25, .45) 和 U(.05, .45), ȘI 


余 选 项 平均 分 配 1 一 己 (Alg) MAES” P (h|g) 二 1。(4) 属性 分 布 形态 有 两 种 ,分 


别 为 多 元 正 态 闵 值 模型 和 均匀 分 布 (e.g., Wæ, 周文 杰 , 2021; Chang et al., 2019; Chiu & 
Chang, 2021). (5) 测验 长 度 有 三 个 水 平 ， 由 于 涉及 不 同属 性 个 数 ， 故 研究 针对 属性 个 数 进 
行 测验 长 度 的 设 定 ， 三 种 测验 长 度 分 别 为 2K、3K 和 4K， 其 中 天 表示 属性 个 数 。(6) 选 题 
策略 有 三 个 水 平 ， 分 别 为 HDDmc、JDDmc 和 JSD. 
4.2.2 控制 变量 

研究 的 控制 变量 主要 有 测验 模型 、 题 库 大 小 、 选 项 数量 、 正 式 测试 的 人 数 。 研 究 将 用 MC- 
DINA 模型 生成 作答 数据 (Yigit et al., 2019)， 选 择 该 模型 的 原因 在 于 ， 首 先 ， 可 处 理 题 目 选 
项 信息 的 饱和 CDM 非常 少 ， 相 关 研 究 也 不 成 熟 ， 且 参数 难以 解释 和 估计 ; 其 次 ， 当 前 绝 大 


多 数 CD-CAT 的 研究 采用 简化 模型 如 DNA) 进行 分 析 ， 只 有 极 少 量 研究 使 用 饱和 模型 ; 


Im 


最 后 ， 相 关 的 实证 研究 亦 采 用 DINA 模型 进行 CD-CAT 分 析 (e.g., Liu et al., 2013 )。 题 库 方 
则 固定 题库 中 的 题目 数量 为 480〈 孙 小 坚 等 , 2021)。 选 项 个 数 固定 为 4 个 ， 这 在 实际 测 
验 中 较为 常见 。 正 式 测试 的 人 数 则 固定 为 500 人 〈Chang etal.,2019)。 此 外 ， 参 考 以 往 研究 
Ce.g., Chang et al., 2019; Chiu & Chang, 2021; Yang et al., 2020)， 使 用 JSD 时 ， 先 基于 预测 试 
进行 参数 校准 ， 此 时 校准 的 样本 量 固 定 为 40Kk， 其 中 为 属性 个 数 ; 校准 完毕 后 , 将 基于 校 
准 的 题目 参数 选择 最 佳 的 侯 选 题目 。 

研究 总 共有 2《〈 属 性 个 数 ) x2Q 矩阵 结构 ) x 3 (题目 质量 ) x2《 属 性 分 布 形态 ) x 
3 测验 长 度 )x 3《〈 选 题 策略 ) = 216 种 实验 条 件 ， 其 中 选 题 策略 为 被 试 内 变量 ， 其 它 则 为 
被 试 间 变量 。 为 减少 抽样 误差 ， 各 实验 条 件 重复 30 次 。 所 有 程序 用 R 软件 实现 。 
4.3 评价 指标 

评价 指标 有 两 类 , 一 类 用 于 评价 诊断 分 类 的 准确 性 , 用 PMR 体现 , 其 值 在 0 和 1 之 间 ， 
值 越 大 则 分 类 越 准确 ; 另 一 类 则 用 于 评价 题库 使 用 情况 ， 包 括 测 验 整 体 曝光 率 yo, DUIS EE 
Z (TOR), EPER (UR) 和 过 度 曝 光 率 〈OIR)， 四 者 越 小 越 好 《〈 陈 平 等 ,2011; 孙 小 
坚 等 ,2021)。 以 上 指标 的 计算 公式 为 : 


PMR = DDC =a, yv 


all 
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PEL [I Nw) 


exp, = N° JN , 


i ELE x2]. 


R JxNx (N -1) 
UIR = D [> (exp, * 02) Ns, | 
om - Yt [E (exp, > 2)/ No] 


Jub, ROS ECHO GAG, sai ALS AMP; Ni 则 为 题目 7 被 使 用 的 次 数 。 
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VE: 2-4K 表示 测验 长 度 为 属性 个 数 的 2-4 f; HDDme 为 基于 MC 汉 明 距离 的 选 题 策略 ，JDDme 为 基于 Jaccard 距离 的 选 题 策 


略 ，JSD 为 基于 ISD 的 选 题 策略 ， 下 同 。 


图 1 
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4.4 研究 结果 


4.4.1 HDDmc 和 JDDme 的 分 类 准确 性 整体 优 于 JSD 


图 1 呈现 了 四 个 属性 下 三 种 选 题 策略 在 不 同 实验 条 件 下 的 PMRs。 整 体 而 言 ， 两 种 非 参 


数 策略 CHDDmc 和 JDDmec) 的 估计 准确 性 在 所 有 条 他 


F 下 基本 相同 ， 并 且 二 者 在 绝 大 多 数 条 


件 下 的 PMRs 要 高 于 JSD 方法 ,具体 而 言 ,在 题目 质量 为 高 和 混合 条 件 下 , HDDmc 和 JDDmc 


A PMRs 整体 要 高 于 JSD 方法 ， 并 且 随 着 测验 长 度 的 增加 ，HDDmc 和 JDDmc 与 JSD 间 的 


PMR 差异 不 断 增 大 。 在 简单 Q 矩阵 和 低 题目 质量 条 件 


F, JSD 5 HDDmc 和 JDDmc 之 间 的 


差异 比较 小 ， 在 部 分 条 件 下 JSD 的 PMR 略微 高 于 HDDmc 和 JDDmc; 但 在 复杂 Q 矩阵 条 
件 下 ，HDDmc 和 JDDmc 的 PMR 要 明显 高 于 JSD 方法 ， 只 在 两 个 条 件 (混合 题目 质量 下 测 
验 长 度 为 2K 和 3K) 下 的 PMR 5 JSD 相同 或 相近 。 此 外 , 题目 质量 和 测验 长 度 对 三 种 选 题 
策略 具有 积极 影响 ， 题 目 质量 越 高 、 测 验 长 度 越 长 ， 则 三 种 策略 的 PMR 越 高 。 另 外 ， 非 参 
数 方法 在 复杂 Q 矩阵 下 的 PMRs 整体 高 于 简单 Q 矩阵 的 结果 。 


1 


0.8 
5 
O 0.6 
a 
0.4 
0.2 
2K 3K 4K 2K 3K 4K 2K 3K 44K 2K 
高 低 混合 
简单 矩阵 
—*— HDDmc —«— JDDmc 
| 均匀 分 布 
0.8 
加 
O 0.6 
a 
0.4 
0.2 
2K 3K 4K 2K 3K 4K 2K 3K 4K 2K 
高 低 混合 
fij FQ [UE 
—*— HDDmc —«— JDDmc 


& 7L ES BIB AT 


3K 4K 2K 3K 4K 2K 3K 4K 
高 低 混合 


E QE 
—e— JSD 


3K 4K 2K 3K 4K 2K 3K 4K 
高 低 混合 
SLA QUE RE 
—e— JSD 


图 2 六 个 属性 下 各 条 件 的 分 类 准确 性 


HDDmc 和 


六 个 属性 下 三 种 选 题 策 略 在 不 同 实验 条 件 下 的 PMRs 如 
F 下 的 PMRs 高 于 JSD， 而 在 乘 


JDDmc 在 三 个 条 从 


JSD, 特别 是 在 混合 


fF, HDDmce 和 JDDmec 的 PMRs 则 在 大 多 数 条 伯 


题目 质量 


1 
H 


图 2 Aras. fal HQ 名 
IR 6 个 条 件 下 的 PMRs 则 低 于 


EERIE F, 


I 


人 下， 二 者 与 JSD 在 PMRs 上 存在 比较 大 的 差异 。 复杂 Q 矩阵 条 


F 下 高 于 JSD 策略 ， 只 在 混合 题目 质量 和 


2K 个 题目 长 度 下 的 PMR 小 于 JSD。 当 题目 质量 较 低 时 ，HDDmc 和 JDDmc 的 PMR 明显 高 


于 JSD 方法 ， 且 在 4K 时 差异 达到 最 大 。 与 四 个 属性 时 的 结果 相同 ， 题 目 质量 和 测验 长 度 对 


所 有 选 题 策略 具有 正 向 影响 ,题目 质量 越 高 \ 测 验 长 度 越 长 , 则 三 种 选 题 策略 的 PMRs 越 高 。 


A. st 


分 布 形态 对 选 题 策略 几乎 没有 影响 。 


表 1 四 个 属性 时 三 种 策略 的 题库 使 用 情况 〈 多 元 正 态 阔 值 分 布 ) 

题 测验 诊断 简单 O RERE 复杂 O RE 
质量 XE 方法 x TOR UR OIR x TOR UIR OIR 
高 2K HDDmc 1.343  .018 .663 .000 1.244  .017 .663 .000 
JDDmc 1.325  .017 .667 .000 1.210 — .017 .659 .000 
JSD 148.184 .324 931 .022 102.493 .229 .899 .022 
3K HDDmc 1.620 .026 .277 .000 1.432 .026 .265 .000 
JDDmc 1.638 .026 281 .000 1.4844  .026 259 .000 
JSD 171.692 .381 .905 .045 121.800 .277 .869 .043 
4K HDDmc 1.932  .035 .096 .000 1.659 .035 .078 .000 
JDDmc 1.932  .035 .093 .000 1.660 .035 .077 .000 
JSD 187.661 .423 .875 .059 133.228 .310 .839 .060 
低 2K HDDmc 1.236 .017 .669 .000 1.167  .017 .666 .000 
JDDmc 1216 .017 .660 .000 1.135 .017 .668 .000 
JSD 187.023 .405 .934 .023 139.115 .305 .909 .023 
3K HDDmc 1392  .026 .256 .000 1.273 .026 .242 .000 
JDDmc 1413  .026 .256 .000 1.250 | .026 239 .000 
JSD 194.582 .429 .902 .039 152.600 .342 .873 .043 
4K HDDmc 1.581 .035 .064 .000 1.418 034 .064 .000 
JDDmc 1.5881 .035 .065 .000 1.425 .034 .065 .000 
JSD 199.925 .449 .872 .050 165.428 .377 .840 .053 
混合 2K HDDmc 1.260 .017 .664 .000 1169 .017 .665 .000 
JDDmc 1.222  .017 .663 .000 1.43  .017 .662 .000 
JSD 173.083 .376 .938 .028 142.062 .311 .918 .021 
3K HDDmc 1.500 .026 .264 .000 1.343 .026 .249 .000 
JDDmc 1.537 .026 .268 .000 1.378  .026 255 .000 
JSD 191.497 .423 .901 .035 173.288 .385 .898 .037 
4K HDDmc 1.737 .035 .082 .000 1.546 .035 .072 .000 
JDDmc 1.763 .035 .083 .000 1.589 .035 .071 .000 
JSD 192.640 .434 .868 .051 181.812 .411 .867 .052 
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4.4.2 HDDmc 和 JDDmc 的 题库 使 用 情况 较 JSD 更 加 均衡 

由 于 六 个 属性 下 的 各 选 题 策略 的 题库 使 用 情况 和 四 个 属性 时 的 题库 使 用 情况 大 体 相 同 ， 
故 不 在 正文 当中 呈现 ， 感 兴趣 的 读者 可 向 作者 索要 。 表 1 呈现 了 四 个 属性 时 三 种 选 题 策略 在 
多 元 正 态 阔 值 分 布下 的 题库 使 用 情况 ， 总 体 而 言 ，HDDmec 和 JDDmc 二 者 在 题库 使 用 方 
较 JSD 策略 更 加 均衡 ，HDDmec 和 JDDme 的 题库 使 用 情况 基本 相同 。 有 具体 而 言 ，X2 方面 ， 


HDDmc fil JDDmc 的 X2 分 别 在 1.167 ~ 1.932 411.135 ~ 1.932 之 间 ， 而 JSD MIZE 102.493 ~ 


199.925 之 间 , ISD 的 整体 曝光 率 远大 于 HDDmc 和 JDDmc 二 者 。 WMHS (TOR) WH, 


HDDmc 和 JDDmc 的 TOR 远 小 于 JSD 的 方法 , 二 者 的 TOR 范围 均 为 .017~.035, 而 JSD 的 


TOR 范围 在 .229 ~ .449， 说 明 HDDmc 和 JDDmc 在 为 每 个 个 体 选择 题目 时 并 没有 固定 地 选 
择 某 些 共同 题目 ， 而 是 尽 可 能 地 从 题库 中 选择 不 同 的 测验 题目 给 个 体 作答 。 在 曝光 不 足 率 
CUIR) 和 过 度 曝光 率 (OIR) 方面 HDDme fil JDDmc 同样 表现 的 要 比 ISD 策略 更 好 ， 二 
者 的 UIR 和 OIR 均 小 于 JSD 方法 ， 特 别 是 UIR，JSD 策略 的 UIR 均 在 .80 以 上 ， 说 明 使 用 
JSD 策略 时 ,题库 中 存在 大 量 曝光 不 足 的 题目 。JSD 的 OR 值 虽然 比较 小 (在 .10 以 下 ), 但 
HDDmc 和 JDDmc 的 OIR 均等 于 0， 说 明 这 两 种 非 参 数 选 题 策略 不 存在 过 度 上 曝光 的 题目 ， 
而 JSD 则 存在 部 分 过 度 曝 光 的 题目 。 三 种 选 题 策略 在 均匀 分 布下 的 题库 使 用 情况 与 多 元 正 
态 阔 值 分 布下 的 相同 ， 故 不 再 呈现 具体 结果 : HDDmc 和 JDDme 的 题库 使 用 情况 明显 好 于 
JSD， 二 者 在 整体 曝光 率 、 测 验 重 毒 率 、 曝 光 不 足 率 和 过 度 曝 光 率 上 的 值 明 显 小 于 JSD。 


5 研究 二 : AK meCD-CAT 下 两 种 非 参 选 题 策略 的 性 能 


5.1 研究 目的 

探讨 HDDmc 和 JDDme 在 两 种 新 的 非 参数 变 长 终止 规则 中 的 表现 情况 ， 并 将 其 与 现 有 
的 非 参数 变 长 终止 规则 进行 比较 。 
52 研究 设计 


5.2.1 自 变量 

研究 二 的 自 变量 个 数 有 6 个 ， 其 中 属性 个 数 、2 矩阵 结构 、 题 目 质 量 和 属性 分 布 形态 四 
个 自 变 量 的 设 定 与 研究 一 相同 。 剩余 两 个 自 变 量 为 终止 规则 和 选 题 策略 , 终止 规则 有 四 个 水 
平 ， 分 别 为 张 淑 君 2019) 提出 的 D1 和 D3 规则 ， 以 及 本 研究 中 的 MR 和 DR 规则 。 选 题 
策略 方面 ,由 于 参数 终止 规则 无 法 与 非 参数 选 题 策略 匹配 ， 故 未 考虑 参数 选 题 策 略 CISD), 
而 重点 关注 HDDme 和 JDDmc 二 者 在 不 同 终止 规则 下 的 表现 。 
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5.2.2 控制 变量 
研究 二 中 的 控制 变量 条 


1 题库 与 研究 一 相同 ， 测 试 人 数 的 真实 AMPs 重新 生成 。 由 于 DR 


规则 需 预先 设 定 CR 值 ， 基 于 预 实 验 的 结果 ， 将 四 个 和 六 个 属性 下 的 CR 值 分 别 设 为 1.3 和 


1.25 时 ，HDDme 和 JDDme 可 获得 较 好 的 结果 ， 故 本 研究 使 用 这 两 个 值 。 测 验 长 度 的 上 限 


设置 为 30 a RA 等 , 20 


情况 ， 研 究 使 用 Xu 等 (20 


相应 的 作 管 信息 。 


15, 2016)。 此 外 ， 为 防止 测验 未 测量 所 有 属性 而 导致 提前 终止 的 
16) 的 初始 题目 选择 程序 以 保证 每 个 个 体 在 每 个 属性 上 均 提 供 了 


研究 总 共有 2 属性 个 数 ) x2《〈Q 矩阵 结构 )x3 (题目 质量 ) x2《〈 属 性 分 布 形态 ) x 


4《〈 终 止 规则 ) x 2〈 选 题 策略 ) = 192 种 实验 条 件 ， 其 中 终止 规则 和 选 题 策略 为 被 试 内 变量 ， 


< 它 则 为 被 试 间 变 量 。 各 条 件 重 复 30 次 。 所 有 程 ) 


N 


5.3 评价 指标 


H R 软件 实现 。 


m 


研究 的 评价 指标 同样 分 为 准确 性 指标 和 题目 使 用 情况 ， 其 中 准确 性 指标 为 PMR， 而 题 
目 使 用 情况 的 指标 则 为 平均 测验 长 度 (M)、 最 小 测验 长 度 (Min)、 最 大 测验 长 度 (Max), 


UIR 和 OR (Hf 等 , 2016; 孙 小 坚 等 , 2021). 


5.4 研究 结果 


表 2 和 表 3 分 别 呈 现 了 多 元 正 态 阔 值 分 布下 ，HDDmc 和 JDDmc 在 四 个 和 六 个 属 1 


表现 情况 ， 整 体 而 言 ， HDDmc 和 JDDmc 在 MR 和 DR 两 种 终止 规则 下 的 分 类 准确 性 较 DI 


和 D3 高 ， 但 测验 长 度 更 长 


= 


生 的 


; 同时 二 者 在 曝光 不 足 率 上 的 表现 优 于 D1 和 D3。 下 面 分 别 对 两 


个 表格 进行 阐述 。 表 2 呈现 了 HDDmc 和 JDDme 在 四 个 属性 和 多 元 正 态 阐 值 分 布 条 件 下 的 


分 类 准确 性 (PMR) 以 及 题库 使 用 情况 。MR 和 DR 规则 下 ，HDDmc 和 JDDmc 的 PMRs 范 


围 为 .441~.775 CM=.659); 二 者 在 Dl 和 D3 规则 下 的 PMRs 则 为 .288~.703 (M=.475)。 


测验 长 度 的 使 用 方面 ，HDDmc 和 JDDmc 在 MR 和 DR 规则 下 的 平均 测验 长 度 、 最 小 测验 
长 度 以 及 最 大 测验 长 度 三 者 均 要 大 于 D1 和 D3 规则 下 的 使 用 情况 .HDDmc fll JDDmc # DI 


和 D3 上 的 平均 、 最 小 和 最 大 题目 长 度 的 范围 分 别 为 5.289~8.319、5.0~7.0 和 8.667~14.90; 
而 二 者 在 MR 和 DR 规则 下 的 平均 、 最 小 和 最 大 题目 长 度 则 分 别 为 9.274~20.838、5.0~7.0 


JI 25.033 ~ 30.0. Mi H HESt 477 I], HDDmc 和 JDDmc 在 MR 和 DR 规则 下 曝光 不 足 率 (CUIR ) 


明显 小 于 二 者 在 Dl 和 D3 规则 下 的 UIR, MR 和 DR 规则 下 的 UIR 为 .003~.661(M=.345)， 


ifj D1 和 D3 规则 下 的 UIR 


则 为 .608~.849(M=.737), 说 明 HDDmc 和 JDDmc 在 Dl 和 D3 


规则 下 存在 大 量 曝光 不 足 的 题目 ， 而 MR 和 DR 规则 下 曝光 不 足 的 题目 则 较 少 ; 此外， 所 有 
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终止 规则 下 的 过 度 曝 光 率 〈OIR) 均 为 0， 说 明 两 种 非 参数 选 题 策略 在 不 同 终 1 
存在 过 度 曝 光 的 题目 。 均 匀 分 布下 的 分 类 结果 和 题库 使 有 


同 ， 将 不 再 呈现 。 


上 规则 下 均 不 
情况 与 多 元 正 态 闵 值 分 布下 的 相 


表 2 遇 性 时 两 种 非 参 方法 的 分 类 结果 及 题库 使 用 情况 〈 多 元 正 态 阔 值 分 布 ) 
终 单 O 矩阵 复杂 和 矩阵“ 

题目 Ik 

质量 M M Mn Max UR PMR M Min Max UR PMR 
则 

高 ”MR 9.274 7 25033 .520 .712 9.360 7 26333 .661 .775 

9300 7 25367 .511 .710 9.402 7 25.600 .659  .768 

DR 13.785 5 30.000 .134 .724 11.767 5 30.000 .473  .738 

14.876 5 30.000 .086 .745 12.853 5 30.000 .363 .752 

DI 5.308 5 8.733 .849 496 5.280 5 9400 .751 .514 

5.300 5 8.667 .846 490 5.253 5 9200 .752 .508 

D3 7.939 7 12.833 .650  .648 7914 7 13433 .728 703 

7.964 7 12.900 .651  .651 7.920 7 13.600 .726 .702 

{& MR 10.204 7 28.667 .414 450 10.482 7 29.167 .577 .509 

10.199 7 28.367 415 .441 10.460 7 29.133 .582 514 

DR 19.536 5 30.000 .009 .629 17.237 5 30.000 .097 .648 

20.838 5 30.000 .003 .641 18.545 5 30.000 .068  .663 

Dl 5431 5 9,333 .839 288 5.430 5 10.300 .750 .303 

5.423 5 9,333 .841 293 5418 5 10367 .751 .310 

D3 8308 7 13.833 .612 .396 8319 7 14900 .716 445 

8315 7 13.800 .608  .397 8.303 7 14733 .719 434 

混合 MR 9.762 7 26400 .463 .591 9.961 7 27233 .620 .666 

9.765 7 25.867 .466 .595 9.915 7 2733 .619  .665 

DR 16321 5 30.000 .042 .720 13.902 5 30.000 277 .711 

17.570 5 30.000 .027 .729 15.141 5 30.000 .192 .724 

DI 5.368 5 8.833 .839 379 5.364 5 10.033 .750 416 

5.368 5 9.000 .845 391 5.3522 5 9.700 .750 418 

D3 8.138 7 13.200 .633 .521 8.135 7 14467 .722 .585 

8.31 7 13233 .629 .530 8.125 7 13.867 .723 .589 

TE: MR 表示 在 性 MHRM 算法 的 终止 规则 ，DR 表示 基于 距离 比 的 终止 规则 ; “ 表示 OR WA 0. 


表 3 呈现 了 HDDmc 和 JDDme 在 六 个 属 | 


E 和 多 元 正 态 闵 值 分 布 条 件 下 的 分 类 准确 性 


(PMR) 以 及 题库 使 用 情况 。MR 和 DR 规则 下 ，HDDmc 和 JDDmc 的 PMRs 范围 


为 .273 


~.639 CM=.471); 二 者 在 DI 和 D3 规则 下 的 PMRs 则 为 .141 ~ .511 (M= .296)。 测 验 长 
度 的 使 用 方面 ，HDDmc 和 JDDmc Æ D1 和 D3 上 的 平均 、 最 小 和 最 大 题目 长 度 的 范 
为 7.287~ 10.404、7.0~ 9.0 和 11.167~ 18.367; 而 二 者 在 MR 和 DR 规则 下 的 平均 、 最 小 和 
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围 分 别 


最 大 题目 长 度 则 分 别 为 11.571~ 21.679. 7.0 — 9.0 Fil 28.967 ~ 30.0. W 


目 曝光 率 方面 , HDDmc 


和 JDDmc 在 MR 和 DR 规则 下 的 UIR 为 .036~.811 (M=.412)， 而 D1 和 D3 规则 下 的 UIR 
则 为 .482 ~ .902 (M= .711)。 此 外 ， 所 有 终止 规则 下 的 过 度 曝 光 率 (OIR) 均 非 常 小 ， 说 明 
两 种 非 参数 选 题 策略 在 不 同 终止 规则 下 均 难 以 产生 过 度 曝 光 的 题目 ,均匀 分 布下 的 分 类 结果 


和 题库 使 用 情况 与 多 元 正 态 阐 值 分 布下 的 相同 ， 故 不 再 呈现 。 


表 3 六 个 属性 时 两 种 非 参 方法 的 分 类 结果 及 题库 使 用 情况 〈 多 元 正 态 阔 值 分 布 ) 
终 简单 2 矩阵 复杂 o^ 
题 止 诊断 
质量 M 方法 M Min Max UR PMR M Min Max UIR PMR 
则 
高 MR HDDmc 11.814 9 29.067 .381  .536 12:226 9 29.000 .755  .636 
JDDmc 11.845 9 28.967 .380  .529 12.218 9 29400 .755  .639 
DR  HDDmc 12.628 7 30.000 .351 .485 11.571] 7 30000 .811 .491 
JDDmc 16.169 7 30.000 .113  .603 14.532 7 30.000 .508 .611 
DI HDDmc 7.320 7  1L167 .574 .319 7295 7 11,900 .902 .339 
JDDmc 7317 7 11.300 .576 .316 7287 7 11.700 .902 .341 
D3  HDDmc 9.988 9 15.767 .493 440 10.015 9 17.533 .884 .511 
JDDmc 9.9884 9 15.600 .496 442 9.992 9 16.33 .886 .510 
Ik MR HDDmc 12946 9 29,900 .307 273 13.559 9 30.000 .611 .364 
JDDmc 12.9334 9 29.867 .308 274 13.468 9 30.000 .631 .357 
DR  HDDmc 16.994 7 30.000 .098  .353 15.286 7 30.000 431 .374 
JDDmc 21.679 7 30.000 .014 .457 19.653 7 30.000 .134 .508 
DI HDDmc 7428 7 12.000 .572 4l 7434 7 12.900 .902 .162 
JDDmc 7.436 7 11.800 .569  .146 7427 7 12967 .902 .165 
D3  HDDmc 10.32 9 16.533 484 210 10.306 9 17.833 .877 265 
JDDmc 10.352 9 16.867 482 213 10.404 9 18367 .877 263 
混合 MR  HDDmc 12468 9 29.633 .335 400 12.884 9 29.833 .696 .516 
JDDmc 12438 9 29.683 .337 .389 12.954 9 29967 .683 .522 
DR  HDDmc 14.683 7 30.000 .204 423 12.770 7 30.000 .704 .433 
JDDmc 19.0033 7 30.000 .036  .559 16560 7 30.000 .308 .577 
DI HDDmc 7.385 7 11533 .570 212 7376 7 12.7333 902 244 
JDDmc 7.390 7 11.5333 .573 210 7367 7 12.33 .902 250 
D3  HDDmc 10202 9 16233 486 .314 10.198 9 17.533 .880 .392 
JDDmc 10.179 9 16.500 .488  .309 10.234 9 17.800 .880 .393 


6 讨论 与 结论 


6.1 研究 讨论 


HE: ^ 表示 简单 O 矩阵 结构 下 的 OR 均 为 0; ^ 表示 复杂 Q 和 矩阵 结构 下 的 OR 均 为 .008。 


当前 大 部 分 CD-CAT 的 研究 常 名 略 干扰 项 的 诊断 信息 ， 造 成 资源 的 浪费 ， 对 此 Yigit 等 
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(2019) 基于 MC-DINA 模型 
想 结果 。 但 参数 方法 
康 春花 等 ,2015; Chiu etal., 2018)。 基 于 此 ， 本 研究 提出 了 两 在 


两 种 变 长 CD-CAT 情境 下 的 终止 规则 。 通 过 两 


选 题 策 略 (HDDmc Fil JDDmc), Jf Hed H 


出 了 综合 使 用 题目 所 有 选项 信 


息 的 参数 选 题 策略 ， 并 取得 理 


复杂 、 前 提 假 设 严 苟 以 及 需 较 大 样本 量 等 不 足 CHA 等 ,2018; 


中 适用 于 mcCD-CAT 的 非 参 数 


个 模拟 研究 系统 地 探讨 了 二 者 在 meCD-CAT 中 的 表现 情况 。 结 果 发 现 ， 定 长 实验 条 件 下 ， 
非 参数 选 题 策略 HDDme 和 JDDme 可 以 获得 较 参 数 选 题 策略 更 加 准确 的 分 类 结果 ， 并 且 其 


题库 使 月 


情况 明显 好 于 参数 选 题 策略 。 


6.1.1 控制 简单 Q 矩阵 和 混合 题目 质量 条 件 下 ， 属 性 个 数 对 非 参 数 选 题 策略 有 消极 影响 


RI IDDmc 倾向 于 选择 特定 的 题 
候选 题目 
可 能 无 法 获 和 


个 题目 的 ISD, F 


过 度 曝光 率 三 个 方 


模拟 研究 一 的 结果 显示 ， 四 个 属性 
整体 要 优 于 ISD 方法 ,但 在 六 个 属性 


和 JDDmc, 特别 是 测验 长 度 为 2K 和 3K 时 。 x5 


量 下 的 分 类 准确 性 


ERF, HDDmc 和 JDDmc 在 简单 Q 和 矩阵 和 混合 题目 质 


ERY, ISD 的 分 类 准确 性 则 高 于 HDDmc 


情况 对 其 进行 论证 : HDDmc 和 JDDmc 在 四 和 六 个 属性 下 


= 比较 小 , 但 曝光 不 足 率 方面 , 二 者 在 四 和 六 个 属性 上 的 差异 则 比 


E 的 可 能 原因 是 四 个 属性 时 , HDDmc 


目 集 ， 而 六 个 属性 时 ， 二 者 所 选择 的 题目 集 范围 更 广泛 。 当 
范围 较为 广泛 时 ,由 于 是 从 题目 集中 随机 选择 一 个 题目 ， 故 导致 非 参 数 选 题 策略 
题目 ， 从 而 产生 较 低 的 分 类 准确 性 ; 而 参数 选 题 策略 则 可 以 计算 各 
了 确定 性 地 从 题目 集中 选择 具有 最 大 ISD 值 的 题目 。 这 也 许可 以 从 题库 使 


的 整体 曝光 率 、 测 验 重 辣 率 和 


较 大 ， 说 明 HDDmc 和 JDDmc 在 四 个 属性 下 存在 大 量 曝 光 不 


说 明 该 条 们 


足 的 题目 ， 这 一 定 程度 上 反 向 


EF HDDmc 和 JDDmc 倾向 于 选择 特定 的 某 些 题目 集 。 


6.1.2 MR 和 DR 规则 在 平衡 准确 性 和 题库 使 用 间 的 表现 较 D1 和 D3 规则 稍 差 
究 提 出 的 两 种 新 的 非 参 数 终止 规则 可 以 获得 较 D1 和 D3 更 


D1 和 D3 WE, WAS, 因而 
CAT 情境 中 临 的 利益 权衡 问题 〈 陈 平 等 , 2011; RAR 等 , 2015; BAB, #7, 2013; 
孙 小 坚 


as pU n] SER 


RMA ARER, f 
准确 性 ， 但 其 代价 则 
多 于 其 它 三 种 规则 ， 该 规则 下 的 平均 测验 长 度 均 在 10.0 以 
续 获得 四 个 完全 一 致 性 的 AMP 


则 下 , 第 三 小 和 最 小 的 距离 之 间 的 比值 需 在 1.3 或 1.25 时 , 测验 才能 结束 ， 这些 设 定 相 对 于 


AR, MR 规则 下 ， 个 体 需 连 


Bae 
是 需要 


了 


更 多 的 测验 题目 ， 特 别 是 DR 规则 ， 其 所 需 的 题目 数 明 


上 。 当 然 ， 这 也 跟 研 究 的 设 定 


值 时 测验 方 能 结束 ， 而 DR 规 


其 需要 更 多 的 测验 题目 ， 进 而 导致 更 高 的 分 类 准确 性 。 这 是 


ZA x 


D 


4& 2021). $X E, MR 和 DR 规则 下 分 类 准确 性 的 


高 低 和 题库 使 用 情况 之 间 的 利 


究 设 置 给 予 实现 ， 当 研究 目的 在 于 尽 可 能 获得 
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准确 分 类 结果 时 ， 可 增加 MR 


规则 下 连续 一 致 性 AMP 值 的 次 数 和 增 大 DR 规则 中 的 CR 值 ， 反 之 ， 则 可 以 适当 减少 。 


6.1.3 Q 矩阵 复杂 程度 对 分 类 准确 性 有 正 向 影响 


两 个 模拟 研究 的 结果 还 显示 ， 相 对 于 简单 Q 矩阵 ， 三 种 选 题 方 法 在 复杂 Q HEME PIT 


类 准确 性 更 高 。 其 原因 可 能 在 于 简单 Q 矩阵 情境 下 ， 题 库 中 大 部 分 题目 只 测量 了 一 个 属性 


《本 研究 中 四 和 六 个 属性 时 各 有 317 和 252 个 题目 )， 这 些 题 目的 干扰 项 没有 提供 任何 额外 


信息 ， 因 此 简单 Q 矩阵 中 的 题目 提供 的 选项 信息 有 限 。 而 复杂 Q 矩阵 下 ， 只 测量 一 个 属性 
的 题目 比例 则 比较 少 〈( 本 研究 中 四 和 六 个 属性 下 分 别 仅 有 26.25% 和 9.79% 的 比例 )， 剩 余 题 
息 


目的 干扰 项 均 能 提供 诊断 信 
6.1.4 HDDmc 和 JDDmc 不 依赖 于 预测 试 的 样本 量 


基于 两 个 模拟 研究 的 分 析 过 程 可 以 发 现 , 在 正式 测试 之 前 , 需 进行 预测 试 以 获得 题目 
数 的 估计 值 ， 从 而 为 后 续 的 正式 测试 提供 题目 参数 信息 。 而 前 人 研究 发 现 ， 预 测试 的 样 


， 因 此 在 复杂 Q 和 矩阵 下 可 得 到 更 高 的 分 类 准确 性 。 


W 


la 


会 影响 参数 选 题 策略 的 估计 准确 性 ,预测 试 样本 量 越 大 ,， 则 参数 选 题 策略 的 估计 准确 性 也 越 
高 (Huang, 2018; Sun et al., 2020)。 其 原因 在 于 样本 量 较 小 时 ， 参 数 估 计 的 误差 将 比较 大 ， 
而 参数 选 题 策略 直接 将 误差 较 大 的 题目 参数 估计 值 作为 正式 测试 中 的 真 值 ， 从 而 影响 个 体 


AMP 的 估计 准确 性 。 如 此 ， 可 以 预期 ， 较 小 的 预测 试 样本 量 将 影响 ISD 的 分 类 结果 。 反 观 
HDDmc 和 JDDmc， 二 者 不 需要 进行 预测 试 ， 因 而 预测 试 的 样本 量 大 小 不 会 对 其 产生 影响 ， 


该 结果 与 以 往 关 于 非 参 数 诊 断 方法 的 研究 结果 相同 (e.g., 康 春 花 等 , 2019; 罗 照 盛 等 ， 


2015). 


6.1.5 研究 不 足 与 展望 


本 研究 丰富 了 关于 mcCD-CAT WAG. 42, MÆR 


究 还 可 从 以 下 几 个 方面 进行 深入 


TRE: (1) 2 矩阵 方面 ，MC-DINA 模型 要 求 干扰 项 的 4 向 量 必须 是 正确 选项 的 子 集 ， 但 实 
际 的 测验 编制 过 程 中 , 干扰 项 的 gq 向 量 不 属于 正确 选项 的 子 集 同 样 有 可 能 发 生 《〈 郭 逢 ,周文 


杰 , 2021)， 因 此 后 续 研 究 可 对 此 进行 探讨 。(2) 研究 只 考虑 了 个 体 在 各 选项 上 的 作答 情况 ， 
其 他 信息 如 作答 时 间 等 变量 同样 可 以 提供 额外 的 诊断 信息 ， 


后 续 研 究 可 尝试 将 时 间 信 息 给 予 


考虑 。(3) 研究 为 模拟 研究 ， 各 方面 可 以 进行 严格 控制 ， 而 实际 测验 情境 将 会 更 加 复杂 ， 因 


的 效果 如 何 需 要 进一步 验证 。 


9 


此 ， 非 参数 方法 在 实证 研 ? 


6.2 研究 结论 


基于 两 个 模拟 研究 的 结果 ， 研 究 得 到 以 下 结论 : CIO 两 种 非 参数 选 题 策略 均 适 用 于 


mcCD-CAT 情境 ， 二 者 均 获 得 较 高 的 分 类 准确 性 ， 因 此 ,使 用 者 可 以 任 选 其 一 ;(2) 两 种 非 
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参数 方法 具有 较为 均匀 的 题库 使 用 情况 , 一定 程度 上 保证 了 题库 的 安全 性 ;(3) 两 种 非 参数 
终止 规则 适用 于 变 长 mcCD-CAT 情境 , 可 依据 测验 目的 灵活 地 平衡 准确 性 和 题库 使 用 情况 ; 
当 测验 追求 精度 时 ，MR 规则 的 连续 相等 次 数 可 设置 为 五 次 及 以 上 ， 而 DR 规则 下 的 CR 值 
则 可 以 设置 为 1.5 及 以 上 ; 反之 ， 则 可 以 降低 MR 规则 中 的 次 数 和 DR 规则 中 的 CR 值 。 


D 


参考 文献 


Bradshaw, L., & Templin, J. (2014). Combining item response theory and diagnostic classification models: A 
psychometric model for scaling ability and diagnosing misconceptions. Psychometrika, 79(3), 403-425. 

Chang, H. H. (2015). Psychometrics behind computerized adaptive testing. Psychometrika, 80(1), 1-20. 

Chang, Y. P., Chiu, C. Y., & Tsai, R. C. (2019). Nonparametric CAT for CD in educational settings with small 
samples. Applied Psychological Measurement, 43(7), 543—561. 

Chen, P., Li, Z., & Xin, T. (2011). A note on the uniformity of item bank usage in cognitive diagnostic computerized 
adaptive testing. Studies of Psychology and Behavior, 9(2), 125—132. 

RF, F, F. (2011). 认 知 诊断 计算 机 化 自 适 应 测验 的 题库 使 用 均匀 性 初探 . DER fr TL, 9(2), 
125-132.] 


le 


rel 
H 


Cheng, Y. (2009). When cognitive diagnosis meets computerized adaptive testing: CD-CAT. Psychometrika, 74(4), 
619—632. 

Chiu, C. Y., & Chang, Y. P. (2021). Advances in CD-CAT: The general nonparametric item selection method. 
Psychometrika, 86(4), 1039-1057. 

Chiu, C. Y., Douglas, J. A., & Li, X. D. (2009). Cluster analysis for cognitive diagnosis: Theory and applications. 
Psychometrika, 74(4), 633—665. 

Chiu, C. Y., Sun, Y., & Bian, Y. H. (2018). Cognitive diagnosis for small educational programs: The general 
nonparametric classification method. Psychometrika, 83(2), 355—375. 

de la Torre, J. (2009). A cognitive diagnosis model for cognitively based multiple-choice options. Applied 
Psychological Measurement, 33(3), 163—183. 

de la Torre, J. (2011). The generalized DINA model framework. Psychometrika, 76, 179-199. 

Gao, Y., Zhai, X., Cui, Y., Xin, T., & Bulut, O. (2021). Re-validating a learning progression of buoyancy for middle 
school students: A longitudinal study. Research in Science Education. Advance online publication. 


https://doi.org/10.1007/s11165-021-10021-x. 


Guo, L., Yang, J., & Song, N. Q. (2018). Application of spectral clustering algorithm under various attribute 
hierarchical structures for cognitive diagnostic assessment. Journal of Psychological Science, 41(3), 735—742. 

[Wea 杨 静 ， 宋 乃 庆 . (2018). 谱 聚 类 算法 在 不 同属 性 层级 结构 诊断 评估 中 的 应 用 . BALSA 41(3), 735- 
742.] 


Guo, L., Zheng, C., Bian, Y. (2015). Exposure control methods and termination rules in variable-length cognitive 
diagnostic computerized adaptive testing. Acta Psychologica Sinica, 47(1), 129—140. 

[ 郭 硕 ， 郑 暗 金 ， 边 玉 芳 . (2015). 变 长 CD-CAT PINE Get] SAE RU. OIR, 47(1), 129-140.] 

Guo, L., Zheng, C., Bian, Y., Song, N., & Xia, L. (2016). New item selection methods in cognitive diagnostic 


computerized adaptive testing: Combining item discrimination indices. Acta Psychologica Sinica, 48(7), 903— 


T 


Wie, 边 玉 芳 , RIR, KRH. (2016). 认 知 诊断 计算 机 化 自 适应 测验 中 新 的 选 题 策略 : 结合 项 目 
区 分 度 指 标 ， DEEST, 48(7), 903-914.] 
Guo, L., & Zhou, W. (2021). Nonparametric methods for cognitive diagnosis to multiple-choice test items. Acta 
19 


Psychologica Sinica, 53(9), 1032-1043. 
[ 郭 磊 ,周文 杰 . (2021). 基于 选项 层面 的 认 知 诊断 非 参 数 方法 . D BESTE, 53(9), 1032-1043.] 


He, M. (2021). Research on nonparametric cognitive diagnosis method and item selection strategy of nonparametric 


CD-CAT (Unpublished master's thesis). Sichuan Normal University, Chengdu, Sichuan. 

[ 何 明 霜 . Q021). FERU MBAR TL SHER CD-CAT HEREHERE), VOTE A, Pu 
川 成 都 . ] 

Hsu, C. L., Wang, W. C., & Chen, S. Y. (2013). Variable-length computerized adaptive testing based on cognitive 


diagnosis models. Applied Psychological Measurement, 37(7), 563—582. 

Huang, H. Y. (2018). Effects of item calibration errors on computerized adaptive testing under cognitive diagnosis 
models. Journal of Classification, 35(3), 437—465. 

Jaccard, P. (1912). The distribution of the flora in the alpine zone. New Phytologist, 11, 37—50. 

Kang, C. H., Ren, P., & Zeng, P. F. (2015). Nonparametric cognitive diagnosis: A cluster diagnostic method based 
on grade response items. Acta Psychologica Sinica, 47(8), 1077—1088. 

[ 康 春花 , 任 平 ， 曾 平 飞 . (2015). 非 参 数 认 知 诊断 方法 : 多 级 评分 的 聚 类 分 析 . OAIR, 47(8), 1077-1088.] 

Kang, C. H., Yang, Y. K., & Zeng, P. F. (2019). Approach to cognitive diagnosis: The Manhattan distance 


T 


discriminating method. Journal of Psychological Science, 42(2), 455-462. 
[ 康 春 花 ， 杨 亚 坤 ， 曾 平 飞 . (2019). 一 种 混合 计 分 的 非 参 数 认 知 诊断 方法 :曼哈顿 距离 判别 法 . OERA, 
42(2), 455-462.] 


Kaplan, M., de la Torre, J., & Barrada, J. R. (2015). New item selection methods for cognitive diagnosis 
computerized adaptive testing. Applied Psychological Measurement, 39(3), 167—188. 

Kosub, S. (2019). A note on the triangle inequality for the Jaccard distance. Pattern Recognition Letters, 120, 36— 
38. 

Liu, C., & Cheng, Y. (2018). An application of the support vector machine for attribute-by-attribute classification in 
cognitive diagnosis. Applied Psychological Measurement, 42(1), 58—72. 

Liu, C. W., Andersson, B., & Skrondal, A. (2020). A constrained Metropolis-Hastings Robbins-Monro algorithm 
for Q matrix estimation in DINA models. Psychometrika, 85(2), 322—357. 

Liu, H. Y., You, X. F., Wang, W. Y., Ding, S. L., & Chang, H. H. (2013). The development of computerized adaptive 
testing with cognitive diagnosis for an English achievement test in China. Journal of Classification, 30(2), 152— 
172. 

Liu, T. (2016). Using distractor information in computerized adaptive testing (Unpublished doctoral dissertation). 
Beijing Normal University, Beijing. 

[ 刘 拓 . (2016). FADE TET OU El UI PH PUA EE ERE X). 北京 师范 大 学 ， 北京.] 

Luo, Z., Li, Y., Yu, X., Gao, C., & Peng, Y. (2015). A simple cognitive diagnosis method based on Q-matrix theory. 
Acta Psychologica Sinica, 47(2), 264—272. 

DRR, FIAR, MEE, MER, EAR. (2015), 一 种 基于 Q OEFEBEETIA UA MCT. DAR 
47(2), 264-272.] 


Mao, X. Z., & Xin, T. (2013). A comparison of item selection methods for controlling exposure rate in cognitive 
diagnostic computerized adaptive testing. Acta Psychologica Sinica, 45(6), 694—703. 

[ 毛 秀 珍 ， 辛 涛 . (2013). 认 知 诊断 CAT "FILE EGRE LZ TAE EG. OLEH, 45(6), 694—703. ] 

Ozaki, K. (2015). DINA models for multiple-choice items with few parameters: Considering incorrect answers. 


Applied Psychological Measurement, 39(6), 431—447. 


Sun, X., Andersson, B., & Xin, T. (2021). A new method to balance measurement accuracy and attribute coverage 
in cognitive diagnostic computerized adaptive testing. Applied Psychological Measurement, 45(7-8), 463—476. 
Sun, X., Liu, Y., Xin, T., & Song, N. (2020). The impact of item calibration error on variable-length cognitive 


20 


diagnostic computerized adaptive testing. Frontiers in Psychology, 141(11), Article e575141. https:// 
10.3389/fpsyg.2020.575141 


Sun, X., Mao, X., Song, N., & Xin, T. (2021). New methods for item exposure control in cognitive diagnostic 
computerized adaptive testing. Journal of Psychological Science, 44(1), 205—213. 

[ 孙 小 坚 , EES, 宋 乃 庆 ， 辛 涛 . 2021). 定 长 CD-CAT "PADRE IS REEL BRETT. OEA, 441), 205- 
213.] 


Sun, X., Wang, Y., Zhang, S., & Xin, T. (2019). New methods to balance attribute coverage for cognitive diagnostic 
computerized adaptive testing. Journal of Psychological Science, 42(5), 1236-1244. 

[ 孙 小 坚 , EEK, KER, FEV. Q019). WITZ Bri SOL EL X INCDUS vp STE SE PE ACEITE ZR. ORA 
42(5), 1236-1244.] 


Wang, W. Y., Ding, S. L., Song, L. H., Kuang, Z., & Cao, H. Y. (2016). Application of neural networks and support 
vector machines to cognitive diagnosis. Journal of Psychological Science, 39(4), 777-782. 

[EXC X, THWR, RIN, PRE, TERRAE. (2016). TRES Pee ASC HE I8] LE A ATHE Br P A. OEA, 
39(4), 777-782.] 

Xin, T., Le, M., & Guo, Y., & Jiang, Y. (2015). The approach to establishing achievement standard: The learning 


progressions based on cognition diagnostic. Journal of Educational Studies, 5, 72-79. 
[EVE RE, WHE, ZF. (2015). 学 业 质 量 标准 的 建立 途径 : 基于 认 知 诊断 的 学 习 进 阶 方法 . AAA, 
5, 72—19.] 


Xu, X. L., Chang, H. H., & Douglas, J. (2003). A simulation study to compare CAT strategies for cognitive diagnosis. 
Paper presented at the Paper presented at the annual meeting of National Council on Measurement in Education, 
Montreal, Canada. 

Xu, G., Wang, C., & Shang, Z. (2016). On initial item selection in cognitive diagnostic computerized adaptive testing. 
British Journal of Mathematical and Statistical Psychology, 69, 291—315. 

Yamaguchi, K. (2020). Variational Bayesian inference for the multiple-choice DINA model. Behaviormetrika, 47(1), 
159-187. 

Yang, J., Chang, H. H., Tao, J., & Shi, N. (2020). Stratified item selection methods in cognitive diagnosis 
computerized adaptive testing. Applied Psychological Measurement, 44(5), 346—361. 

Yigit, H. D., Sorrel, M. A., & de la Torre, J. (2019). Computerized adaptive testing for cognitively based multiple- 
choice data. Applied Psychological Measurement, 43(5), 388—401. 

Zhang, S. (2019). Applying npCD-CAT based on MDD to the field of number and algebra (Unpublished master's 
thesis). Zhejiang Normal University, Jinhua, Zhejiang. 

[ 张 淑 君 . (2019). 227 MDD ff npCD-CAT WARAK -T AMAA v HR dz See Xo) ,浙江 师范 大 学 ， 
浙江 金华 .] 

Zheng, C. J., & Chang, H. H. (2016). High-efficiency response distribution-based item selection algorithms for short- 


length cognitive diagnostic computerized adaptive testing. Applied Psychological Measurement, 40(8), 608— 
624. 


Nonparametric cognitive diagnostic computerized adaptive testing 


using distractor information 


SUN Xiao!23, GUO Lei?^ 
(! School of Mathematics and Statistics, Southwest University, Chongqing 400715, China) 


21 


Ê Basic Education Research Centre, Southwest University, Chongqing 400715, China) 
Q Southwest University Branch, Collaborative Innovation Center of Assessment for Basic Education Quality, Chongqing 400715, China) 
(+ Faculty of Psychology, Southwest University, Chongqing 400715, China) 
Abstract 

Most existing cognitive diagnostic computerized adaptive testing (CD-CAT) item selection 
methods ignore the diagnostic information that distractors provide for multiple-choice (MC) items. 
Consequently, some useful information is missed and resources are wasted. To overcome this, Yigit 
et al. (2019) proposed the Jensen-Shannon divergence (JSD) strategy to select items with the MC- 
DINA model (de la Torre, 2009). However, the JSD strategy needs large samples to obtain reliable 
estimates of the item parameters before the formal test, and this could compromise the items in the 
bank. By contrast, the nonparametric method does not require any parameter calibration before the 
formal test and can be used in small educational programs. 

The current study proposes two nonparametric item selection methods (i.e., HDDmc and 
JDDmc) for CD-CAT with MC items as well as two termination rules (i.e., MR and DR,) for 
variable-length CD-CAT with MC items. Two simulation studies were conducted to examine the 
performance of these nonparametric item selection methods and termination rules. 

The first study examined the performance of the HDDmc and JDDmc with fixed-length CD- 
CAT. In this study, six factors were manipulated: the number of attributes (K — 4 vs. 6), the structure 
of the Q-matrix (simple vs. complex), the quality of the item bank (high vs. low vs. mixed), the 
distribution of the attribute profile (multivariate normal threshold model vs. discrete uniform 
distribution), the test length (two vs. three vs. four times of K), and the item selection methods 
(HDDmc vs. JDDmc vs. JSD). Of these, item selection method was the within-group variable, and 
the rest were between-group variables. The results showed that: (1) the HDDmc and JDDmc 
produced higher attribute pattern matched ratios (PMRs) than the JSD method for most conditions; 
(2) the HDDmc and JDDmc produced similar PMRs for all conditions; (3) the HDDmc and JDDmc 
produced more even distributions of item exposure than the JSD method. 

The second simulation study investigated the performance of the MR and DR with variable- 
length CD-CAT. Six factors were also manipulated in this study: the settings for the number of 
attributes, the structure of the Q-matrix, the quality of the item bank, and the distribution of the 
attribute profile were the same as in the first study; the other two factors were termination rules (MR, 
DR, D1, and D3) and item selection methods (HDDmc and JDDmc). Again, the first four were 
between-group variables, while termination rules and item selection methods were within-group 
variables. The results showed that: (1) the HDDmc and JDDmc yielded higher PMRs for MR and 
DR rules than for the D1 and D3 rules; (2) the HDDmc and JDDmc yielded longer test lengths for 
MR and DR rules than for the D1 and D3 rules, especially for the JDD rule. 

In sum, both nonparametric item selection methods and the two new termination rules proved 
appropriate for CD-CAT with MC items, which means they can be used to balance the trade-off 
between measurement accuracy and item exposure rate. 
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